Planteamiento del problema
Problemas asociados a bases de datos no ordenadas
- Las variables se almacenan tanto en filas como en columnas.
- Más de una variable se almacena en una columna.
- Múltiples tipos de unidades experimentales se almacenan en una misma tabla.
- Un sólo tipo de unidad experimental se almacena en múltiples tablas.
- Los encabezados de las columnas, son valores, no variables.
Descripción del problema
- Bases de datos en múltiples archivos de excel.
- Si el objetivo de análisis es holístico, no es conveniente tener información disgregada o fraccionada.
- Unión de datos en función de un factor, individuo u observación común.
- Caracterizar el comportamiento por países en función de las variables registradas.
- Objetivo: hacer uso de los temas abordados el semestre pasado para describir y caracterizar la situación global por país.
Actividad práctica
Ejercicios
- Unir las bases de datos en un sólo
data frame
que contenga información para cada país.
- ¿Cuáles son los 10 países con mayor densidad poblacional?
- Piense en un gráfico (sólo uno) que permita evidenciar la relación del gasto en educación y el crecimiento del PIB.
- Genere una nueva variable con información del continente al cual pertenece el país.
- Con un gráfico o medida trate de mostrar la variación existente en el gasto en investigación y desarrollo por continente.
- Con un gráfico muestre cómo es la distribución de cada variable numérica.
Tareas pendientes
Tareas
- Base de datos con experimento de interés (29 de junio de 2019).
- Propuesta del logo del semillero (29 de junio de 2019).
- Presentación de propuestas tentativas para el R day - Medellín (06 de julio de 2019).
- Leer acerca de gráficos cuantil-cuantil y contrastes de hipótesis para validación del supuesto de normalidad.
- Leer acerca de las funciones join: